Gaussian Naive Bayes এবং Multinomial Naive Bayes

Machine Learning - সাইকিট-লার্ন (Scikit-Learn) - Naive Bayes Classifier
243

Naive Bayes হল একটি সহজ এবং কার্যকর মেশিন লার্নিং অ্যালগরিদম, যা বিশেষ করে ক্লাসিফিকেশন সমস্যা সমাধানে ব্যবহৃত হয়। এটি একটি প্রবণতা ভিত্তিক মডেল, যেখানে প্রতিটি ফিচারের মানের উপর নির্ভর করে একটি ক্লাসের সম্ভাবনা হিসাব করা হয়। Naive Bayes এর বিভিন্ন ধরনের সংস্করণ রয়েছে, যার মধ্যে Gaussian Naive Bayes এবং Multinomial Naive Bayes দুটি জনপ্রিয় মডেল। এই দুটি মডেল সাধারণত ব্যবহৃত হয় বিভিন্ন ধরনের ডেটা এবং সমস্যার জন্য।

এগুলো উভয়ই Naive Bayes এর সংশোধিত সংস্করণ, তবে তাদের মধ্যে ব্যবহৃত সম্ভাব্যতা মডেল এবং অ্যাসাম্পশন আলাদা।


Gaussian Naive Bayes (গাউসিয়ান নায়িভ বেইজ)

Gaussian Naive Bayes (GNB) হল Naive Bayes এর একটি বিশেষ সংস্করণ, যা যখন ফিচারের মান গ continuous (নিরবচ্ছিন্ন) হয়, তখন ব্যবহৃত হয়। এটি গাউসিয়ান ডিস্ট্রিবিউশন বা Normal Distribution (গড় এবং বিক্ষিপ্ততা) এর ধারণা ব্যবহার করে, যেখানে প্রতিটি ফিচারের জন্য গড় এবং বিক্ষিপ্ততা হিসাব করা হয়।

ব্যবহার:

এটি সাধারণত বৈশ্বিক ডেটা (যেমন, ডেটা পয়েন্ট যেখানে প্রতিটি ফিচারের মান ধারাবাহিক হয়) শ্রেণিবদ্ধ করার জন্য ব্যবহৃত হয়।

গাণিতিক ভিত্তি:

ফিচারের জন্য গাউসিয়ান ডিস্ট্রিবিউশন ব্যবহার করা হয়। গাউসিয়ান ডিস্ট্রিবিউশনের ফর্মুলা:

P(xC)=12πσ2exp((xμ)22σ2)P(x | C) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(\frac{-(x - \mu)^2}{2\sigma^2}\right)

এখানে,

  • xx হচ্ছে ফিচারের মান,
  • μ\mu হচ্ছে গড় (mean),
  • σ2\sigma^2 হচ্ছে বিক্ষিপ্ততা (variance),
  • P(xC)P(x | C) হচ্ছে একটি ক্লাস CC এর জন্য xx এর সম্ভাবনা।

উদাহরণ:

ধরা যাক, আমাদের কাছে দুটি ফিচার (Age, Income) রয়েছে এবং আমরা দুটি ক্লাস (Spam, Not Spam) শ্রেণীবদ্ধ করতে চাই। গাউসিয়ান নায়িভ বেইজ মডেলটি এই ফিচারের জন্য গড় এবং বিক্ষিপ্ততা নির্ধারণ করবে এবং তারপর মডেলটি ব্যবহার করে প্রতিটি নতুন ইনপুটের জন্য স্প্যাম বা নন-স্প্যাম ক্লাস নির্ধারণ করবে।


Multinomial Naive Bayes (মাল্টিনোমিয়াল নায়িভ বেইজ)

Multinomial Naive Bayes (MNB) হল Naive Bayes এর আরেকটি সংস্করণ যা ডিসক্রিট (discrete) ডেটা বা কাউন্ট ডেটা (যেমন, শব্দের উপস্থিতি বা টোকেন কাউন্ট) শ্রেণিবদ্ধ করার জন্য ব্যবহৃত হয়। এটি Multinomial Distribution এর ওপর ভিত্তি করে কাজ করে, যা সাধারণত টেক্সট ক্লাসিফিকেশন (যেমন স্প্যাম ইমেইল শনাক্তকরণ) এবং ডকুমেন্ট ক্যাটেগরাইজেশন এর ক্ষেত্রে ব্যবহৃত হয়।

ব্যবহার:

এটি বিশেষভাবে ব্যবহার করা হয় যখন প্রতিটি ফিচারের মান একটি নির্দিষ্ট সংখ্যা বা সংখ্যা গণনা (count) হিসেবে প্রকাশ করা হয়, যেমন একটি নির্দিষ্ট শ্রেণীতে শব্দের সংখ্যা।

গাণিতিক ভিত্তি:

Multinomial Naive Bayes মূলত Multinomial Distribution ব্যবহার করে, যা সাধারণত শব্দের উপস্থিতি (word occurrence) বা টোকেনের সংখ্যা এর জন্য ব্যবহৃত হয়। এটি একটি নির্দিষ্ট শ্রেণীর জন্য সম্ভাবনা হিসাব করতে সাহায্য করে, যেমন:

P(x1,x2,...,xnC)=P(C)P(x1,x2,...,xn)i=1nP(xiC)P(x_1, x_2, ..., x_n | C) = \frac{P(C)}{P(x_1, x_2, ..., x_n)} \prod_{i=1}^{n} P(x_i | C)

এখানে,

  • x1,x2,...,xnx_1, x_2, ..., x_n হচ্ছে ফিচারের মান,
  • P(xiC)P(x_i | C) হচ্ছে ক্লাস CC এর জন্য প্রতিটি ফিচারের সম্ভাবনা,
  • P(C)P(C) হচ্ছে ক্লাসের প্রাথমিক সম্ভাবনা (Prior Probability)।

উদাহরণ:

একটি স্প্যাম ইমেইল ক্লাসিফায়ার তৈরি করার সময়, Multinomial Naive Bayes মডেলটি ইমেইলের প্রতিটি শব্দের গণনা করে এবং ক্লাস (স্প্যাম বা নন-স্প্যাম) নির্ধারণ করে।


Gaussian Naive Bayes এবং Multinomial Naive Bayes এর মধ্যে পার্থক্য

বৈশিষ্ট্যGaussian Naive BayesMultinomial Naive Bayes
ডেটা প্রকারধারাবাহিক বা নিরবচ্ছিন্ন ডেটা (Continuous data)ডিসক্রিট বা গাণিতিক ডেটা (Count data)
ব্যবহারসাধারণত গাণিতিক বা বৈশ্বিক ডেটাতে ব্যবহৃতশব্দের সংখ্যা বা টোকেনের উপস্থিতি (text data)
ফিচারের ধরনগাউসিয়ান ডিস্ট্রিবিউশন (Gaussian Distribution)মাল্টিনোমিয়াল ডিস্ট্রিবিউশন (Multinomial Distribution)
প্রধান অ্যাসাম্পশনফিচারগুলি গাউসিয়ান ডিস্ট্রিবিউশনে বিতরণ হয়ফিচারগুলি মাল্টিনোমিয়াল ডিস্ট্রিবিউশনে বিতরণ হয়
প্রধান ব্যবহার ক্ষেত্রগাণিতিক ডেটা, সাধারন ক্লাসিফিকেশন কাজটেক্সট ক্লাসিফিকেশন, স্প্যাম ডিটেকশন

সারাংশ

  • Gaussian Naive Bayes ধারাবাহিক (continuous) ফিচারের জন্য ব্যবহৃত হয়, যেখানে গাউসিয়ান ডিস্ট্রিবিউশন (Gaussian Distribution) ব্যবহৃত হয়।
  • Multinomial Naive Bayes ডিসক্রিট ডেটা বা কাউন্ট ডেটার জন্য ব্যবহৃত হয়, যেখানে মাল্টিনোমিয়াল ডিস্ট্রিবিউশন (Multinomial Distribution) ব্যবহার করা হয়।

এগুলি Naive Bayes মডেলের দুটি আলাদা প্রকার, যেগুলি বিভিন্ন ধরনের ডেটা এবং সমস্যার জন্য প্রযোজ্য। Gaussian Naive Bayes সাধারণত গাণিতিক ডেটার জন্য ব্যবহৃত হয়, যখন Multinomial Naive Bayes টেক্সট ডেটা বা কাউন্ট ডেটার জন্য বেশি কার্যকরী।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...